🎯 Фишка инструмента: топ-5 библиотек Python для EDA (разведочного анализа данных)EDA (Exploratory Data Analysis) — это важнейший этап анализа данных, помогающий понять структуру, закономерности и аномалии в данных перед моделированием. Ниже — библиотеки, которые максимально ускоряют и упрощают этот процесс.
1️⃣ pandas\_profilingimport pandas_profiling
report = pandas_profiling.ProfileReport(df)
report.to_file("eda_report.html")
🟪 Генерирует полноценный HTML-отчёт по DataFrame.
🟪 Показывает распределения, корреляции, пропущенные значения, типы данных и многое другое.
🟪 Отличный способ получить обзор по данным всего за пару строк кода.
2️⃣ Sweetvizimport sweetviz
report = sweetviz.analyze(df)
report.show_html("sweetviz_report.html")
🟪 Создаёт красивый визуальный EDA-отчёт.
🟪 Можно сравнивать два набора данных (например, обучающую и тестовую выборки).
🟪 Очень полезен для выявления смещений и различий между выборками.
3️⃣ D-Taleimport dtale
dtale.show(df)
🟪 Открывает DataFrame в веб-интерфейсе прямо в браузере.
🟪 Позволяет фильтровать, сортировать, строить графики и смотреть статистику без написания кода.
🟪 Идеален для быстрой визуальной разведки данных.
4️⃣ Skimpyimport skimpy
skimpy.clean_columns(df)
skimpy.scan(df)
🟪 Очищает названия столбцов (удаляет пробелы, приводит к удобному формату).
🟪 Показывает компактную сводку: типы, пропуски, уникальные значения и т.д.
🟪 Очень лёгкая и быстрая библиотека — минимализм и эффективность.
5️⃣ AutoVizfrom autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
AV.AutoViz("your_file.csv")
🟪 Автоматически определяет тип переменных и строит графики: распределения, тренды, связи между переменными.
🟪 Работает напрямую с CSV и Pandas DataFrame.
🟪 Подходит для быстрого первичного анализа без ручного выбора визуализаций.
Библиотека дата-сайентиста #буст